As ultra-realistic face forgery techniques emerge, deepfake detection has attracted increasing attention due to security concerns. Many detectors cannot achieve accurate results when detecting unseen manipulations despite excellent performance on known forgeries. In this paper, we are motivated by the observation that the discrepancies between real and fake videos are extremely subtle and localized, and inconsistencies or irregularities can exist in some critical facial regions across various information domains. To this end, we propose a novel pipeline, Cross-Domain Local Forensics (XDLF), for more general deepfake video detection. In the proposed pipeline, a specialized framework is presented to simultaneously exploit local forgery patterns from space, frequency, and time domains, thus learning cross-domain features to detect forgeries. Moreover, the framework leverages four high-level forgery-sensitive local regions of a human face to guide the model to enhance subtle artifacts and localize potential anomalies. Extensive experiments on several benchmark datasets demonstrate the impressive performance of our method, and we achieve superiority over several state-of-the-art methods on cross-dataset generalization. We also examined the factors that contribute to its performance through ablations, which suggests that exploiting cross-domain local characteristics is a noteworthy direction for developing more general deepfake detectors.
translated by 谷歌翻译
神经桌面到文本的生成方法是渴望数据的,限制了它们对低资源现实世界应用的适应性。先前的工作主要诉诸于训练的语言模型(PLM),以生成表格的表格摘要。但是,由于PLM的性质不受控制,它们通常包含幻觉内容。此外,很少研究表和序列之间的拓扑差异。最后但并非最不重要的一点是,在PLM上进行少量实例进行微调可能会导致过度贴合和灾难性的遗忘。为了减轻这些问题,我们提出了一种基于及时的方法,前缀控制的发电机(即PCG),用于几乎没有表格到文本的生成。我们为PLM的特定于任务的前缀预备,以使表结构更适合预训练的输入。此外,我们生成一个特定于输入的前缀,以控制生成的文本的事实内容和单词顺序。对Wikibio数据集的不同领域(人类,书籍和歌曲)的自动评估和人类评估都显示出对基线方法的实质性改进。
translated by 谷歌翻译
人类时尚理解是一项至关重要的计算机视觉任务,因为它具有用于现实世界应用的全面信息。这种关注人类时装细分和属性识别。与以前的作品相反,将每个任务分别建模为多头预测问题,我们的见解是通过Vision Transformer建模将这两个任务用一个统一的模型桥接,以使每个任务受益。特别是,我们介绍了分割的对象查询和属性预测的属性查询。查询及其相应的功能都可以通过掩码预测链接。然后,我们采用两流查询学习框架来学习解耦的查询表示。我们为属性流设计了一种新颖的多层渲染模块,以探索更细粒度的功能。解码器设计与DETR具有相同的精神。因此,我们将提出的方法\ textit {fahsionformer}命名。在三个人类时尚数据集上进行的广泛实验说明了我们方法的有效性。特别是,在\ textit {a intivit {a intim trictric(ap $^{\ text {mask}} _ {_ {\ text {iou+f text {iou+f textiT { } _1} $)用于分割和属性识别}。据我们所知,我们是人类时装分析的第一个统一的端到端视觉变压器框架。我们希望这种简单而有效的方法可以作为时尚分析的新灵活基准。代码可从https://github.com/xushilin1/fashionformer获得。
translated by 谷歌翻译
在本文中,我们专注于3D形式抽象和语义分析的两个任务。这与目前的方法形成对比,仅关注3D形状抽象或语义分析。此外,以前的方法难以产生实例级语义结果,其限制了它们的应用。我们提出了一种用于联合估计3D形式抽象和语义分析的新方法。我们的方法首先为3D形状产生许多3D语义候选区域;然后,我们采用这些候选者直接预测语义类别,并使用深卷积神经网络同时细化候选地区的参数。最后,我们设计一种融合预测结果并获得最终语义抽象的算法,该抽象被显示为对标准非最大抑制的改进。实验结果表明,我们的方法可以产生最先进的结果。此外,我们还发现我们的结果可以很容易地应用于实例级语义部分割和形状匹配。
translated by 谷歌翻译
红外小目标超分辨率(SR)旨在从其低分辨率对应物中恢复具有高度控制目标的可靠和详细的高分辨率图像。由于红外小目标缺乏颜色和精细结构信息,因此利用序列图像之间的补充信息来提高目标是很重要的。在本文中,我们提出了名为局部运动和对比的第一红外小目标SR方法,以前驱动的深网络(MoCopnet)将红外小目标的域知识集成到深网络中,这可以减轻红外小目标的内在特征稀缺性。具体而言,通过在时空维度之前的局部运动的动机,我们提出了局部时空注意力模块,以执行隐式帧对齐并结合本地时空信息以增强局部特征(特别是对于小目标)来增强局部特征。通过在空间尺寸之前的局部对比的动机,我们提出了一种中心差异残留物,将中心差卷积纳入特征提取骨架,这可以实现以中心为导向的梯度感知特征提取,以进一步提高目标对比度。广泛的实验表明,我们的方法可以恢复准确的空间依赖性并改善目标对比度。比较结果表明,MoCopnet在SR性能和目标增强方面可以优于最先进的视频SR和单图像SR方法。基于SR结果,我们进一步调查了SR对红外小型目标检测的影响,实验结果表明MoCopnet促进了检测性能。代码可在https://github.com/xinyiying/mocopnet上获得。
translated by 谷歌翻译
本文的目的是通过提出一种新颖的方案,提高图像取证中复制伪造检测(CMFD)的准确性,主要贡献正在不断发展循环域覆盖(ECDC)算法。该方案集成了基于块和基于关键点的伪造检测方法。首先,从整个图像中提取逻辑极性空间和比例不变特征变换(SIFT)中的加速强大功能(SURF)。其次,采用广义2最近邻(G2NN)来获得大规模匹配的对。然后,采用随机样本共识(RANSAC)算法来滤除不匹配的对,从而允许粗略地位伪造区域。要更准确地展示这些伪造地区,我们提出了高效准确的ECDC算法呈现它们。该算法可以通过从联合演化的圆形域中提取块特征来找到满意的阈值区域,这些域在匹配对上以匹配的对。最后,应用形态学操作来优化检测到的伪造区域。实验结果表明,与其他最先进的CMFD方案相比,所提出的CMFD方案可以在各种攻击下实现更好的检测性能。
translated by 谷歌翻译
Panoptic Part Segmentation (PPS) unifies panoptic segmentation and part segmentation into one task. Previous works utilize separated approaches to handle thing, stuff, and part predictions without shared computation and task association. We aim to unify these tasks at the architectural level, designing the first end-to-end unified framework named Panoptic-PartFormer. Moreover, we find the previous metric PartPQ biases to PQ. To handle both issues, we make the following contributions: Firstly, we design a meta-architecture that decouples part feature and things/stuff feature, respectively. We model things, stuff, and parts as object queries and directly learn to optimize all three forms of prediction as a unified mask prediction and classification problem. We term our model as Panoptic-PartFormer. Secondly, we propose a new metric Part-Whole Quality (PWQ) to better measure such task from both pixel-region and part-whole perspectives. It can also decouple the error for part segmentation and panoptic segmentation. Thirdly, inspired by Mask2Former, based on our meta-architecture, we propose Panoptic-PartFormer++ and design a new part-whole cross attention scheme to further boost part segmentation qualities. We design a new part-whole interaction method using masked cross attention. Finally, the extensive ablation studies and analysis demonstrate the effectiveness of both Panoptic-PartFormer and Panoptic-PartFormer++. Compared with previous Panoptic-PartFormer, our Panoptic-PartFormer++ achieves 2% PartPQ and 3% PWQ improvements on the Cityscapes PPS dataset and 5% PartPQ on the Pascal Context PPS dataset. On both datasets, Panoptic-PartFormer++ achieves new state-of-the-art results with a significant cost drop of 70% on GFlops and 50% on parameters. Our models can serve as a strong baseline and aid future research in PPS. Code will be available.
translated by 谷歌翻译
准确的交通状况预测为车辆环境协调和交通管制任务提供了坚实的基础。由于道路网络数据在空间分布中的复杂性以及深度学习方法的多样性,有效定义流量数据并充分捕获数据中复杂的空间非线性特征变得具有挑战性。本文将两种分层图池方法应用于流量预测任务,以减少图形信息冗余。首先,本文验证了流量预测任务中层次图池方法的有效性。分层图合并方法与其他基线在预测性能上形成鲜明对比。其次,应用了两种主流分层图池方法,节点群集池和节点下降池,用于分析流量预测中的优势和弱点。最后,对于上述图神经网络,本文比较了不同图网络输入对流量预测准确性的预测效应。分析和汇总定义图网络的有效方法。
translated by 谷歌翻译
流量预测在智能运输系统中交通控制和调度任务的实现中起着重要作用。随着数据源的多元化,合理地使用丰富的流量数据来对流量流中复杂的时空依赖性和非线性特征进行建模是智能运输系统的关键挑战。此外,清楚地评估从不同数据中提取的时空特征的重要性成为一个挑战。提出了双层 - 空间时间特征提取和评估(DL -STFEE)模型。 DL-STFEE的下层是时空特征提取层。流量数据中的空间和时间特征是通过多画图卷积和注意机制提取的,并生成了空间和时间特征的不同组合。 DL-STFEE的上层是时空特征评估层。通过高维自我注意力发项机制产生的注意力评分矩阵,空间特征组合被融合和评估,以便获得不同组合对预测效应的影响。在实际的流量数据集上进行了三组实验,以表明DL-STFEE可以有效地捕获时空特征并评估不同时空特征组合的重要性。
translated by 谷歌翻译
由于物体的异质尺度,肾脏病理图像的全面语义分割具有挑战性。例如,在整个幻灯片图像(WSI)上,肾小球的横截面区域的距离可能比周围毛细管的64倍,这使得以相同尺度上的同一贴片对两个对象进行分割是不切实际的。为了解决这个缩放问题,先前的研究通常已经训练了多个分割网络,以匹配异质组织类型的最佳像素分辨率。这种多网络解决方案是资源密集型的,无法对组织类型之间的空间关系进行建模。在本文中,我们提出了Omni-Seg+网络,这是一种通过单个神经网络实现多对象(六种组织类型)和多尺度(5倍至40倍尺度)的多尺度(5倍至40倍尺度)的动态神经网络。本文的贡献是三个方面的:(1)提出了一种新型的量表感知控制器,以将动态神经网络从单尺度到多尺度推广; (2)引入了伪标签的半监督一致性正规化,以建模未经注释的组织类型的尺度相关性成单个端到端的学习范式; (3)直接将在人类肾脏图像训练的模型中直接应用于小鼠肾脏图像,而无需再培训,就可以证明高尺度感知的概括。通过从三种不同分辨率下从六种组织类型中学习的约150,000个人类病理图像斑块,我们的方法根据人类的视觉评估和图像词的评估(即空间转录组学)获得了卓越的分割性能。官方实施可在https://github.com/ddrrnn123/omni-seg上获得。
translated by 谷歌翻译